搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏生物信息学、python、R、linux
MHC区域
MHC，就是主要组织相容性复合体 (major histocompatibility complex)，是存在于大部分脊椎动物基因组中的一个基因家族，与免疫系统密切相关，其中人类的MHC糖蛋白，又称为人类白血球抗原 MHC区域位于位于6号染色体上（6p21.31），hg38基因组中29Mb 到 33Mb的位置。这个地方具有高基因密度、高多态性、高度的连锁不平衡等遗传特性。这个区域中如上所述多态性高，SNPs有很多，以往09年一个研究（https://genome.cshlp.org/content/19/1/1.full.pdf+html）找到了一些等位基因不平衡位点，发现有很多分布在MHC MHC区域与许多自身免疫疾病有关。并且由于高度多态性，在无血缘关系的人群中，MHC表现型完全相同者是极其罕见的。所以可以用于亲子鉴定和寻找罪犯。
2.2K10发布于 2020-06-02
Deepseek mHC 架构理解
省流：mHC是传统Transformer架构的升级，增加【大并发】【灵活并发】两点能力1、技术溯源：DeepNeuralNetwork->Residuals->HC->mHC架构名称提出时间主要贡献者是否中国人所属机构 mHC（流形约束超连接）：由DeepSeek团队提出，通过将残差连接矩阵投影到双随机矩阵流形上，解决了HC的训练不稳定性问题，在保持性能的同时确保训练稳定。，解决深层DNN的梯度消失/特征退化问题，保障多流/深层模型稳定训练维持特征传递的稳定性，避免推理时深层特征过度失真（如多流并行中每组流的残差旁路）推理时计算开销极低（仅线性相加），不影响推理效率，是MoE 架构mHC在传统单流残差连接基础上，引入了多流并行管道设计：1.管道宽度扩展传统Transformer：单一残差管道（C维）mHC架构：n个并行残差管道（n×C维），形成“管道束”2.过滤器升级新增预映射过滤器架构优势mHC代表了管道-过滤器架构在LLM中的第三阶段演进：第一阶段：基础Transformer（单管道线性过滤）第二阶段：MoE架构（条件分支管道）第三阶段：mHC多流管道（并行连接拓扑）这种演进体现了从
63740编辑于 2026-01-05
来自专栏大模型系列
解密DeepSeek-V4 预览版Engram 记忆模块、mHC 稳定训练与百万Token稀疏注意力的三大突破——百万Token上下文的智能压缩引擎
3.2mHC的设计哲学：用数学约束保障信号稳定mHC（Manifold-ConstrainedHyper-Connections，流形约束超连接）技术，源自DeepSeek在2026年初发布的论文《mHC 3.4实际效果与战略意义训练稳定性：mHC成功解决了万亿参数MoE模型的训练不稳定性问题，使得V4-Pro的训练成为可能。国产芯片适配：mHC还优化了MoE架构中不同专家之间的通信路径，有效弥补了华为昇腾等国产AI芯片在互联带宽上的代际差距，为“去CUDA化”和全栈国产化战略提供了关键技术支持。推理加速：结合MoE和Engram，V4的端到端推理速度相比同级别稠密模型提升了2.3倍以上。 mHC+MoE：mHC不仅稳定了主干网络，也优化了MoE专家之间的信息流，使得在万亿参数规模下，专家间的协作依然高效可靠。
27620编辑于 2026-04-24
35倍推理加速，成本砍掉97%——DeepSeek V4要重写大模型游戏规则
这篇文章会带你从V3的技术遗产出发，逐层拆解V4的三张核心技术底牌——mHC流形约束超连接、Engram条件记忆架构、以及新一代MoE稀疏计算，看看DeepSeek凭什么用更少的芯片做到了更猛的性能。 MoE架构的稀疏激活让模型推理时的实际计算量远小于参数规模暗示的值——大约带来了4倍以上的效率提升。整个模型中MoE模块权重占比高达98%，剩下MLP与MLA模块仅占2%。指标DeepSeekV3DeepSeekV4（预计）总参数量671B~1T架构MoE+MLAMoE+MLA+mHC+Engram上下文长度128Ktokens1Mtokens推理速度基准最高35倍提升内存占用基准降低约知乎上的技术分析文章把Engram称为"一条不同于MoE的大模型稀疏化路径"，这个定位非常精准。MoE解决的是"计算稀疏"问题，Engram解决的是"知识稀疏"问题。优化维度技术手段预估贡献附加效果稀疏激活MoE动态路由约4倍降低实际计算量注意力压缩MLA低秩压缩约2倍减少KVCache显存外部记忆EngramO(1)查找约1.5倍减轻长序列压力连接优化mHC流形约束约
3.4K120编辑于 2026-04-15
来自专栏大模型系列
打破幻觉与成本魔咒：DeepSeek-V4 如何用双轴稀疏架构重塑大模型未来？
MoE架构虽然解决了计算量问题，但并未解决信息流稳定性问题。 3.2.2技术原理mHC（Manifold-ConstrainedHyper-Connections）技术，源自DeepSeek的另一篇论文《mHC:流形约束超连接》，其核心思想是对层与层之间的连接矩阵施加严格的数学约束超连接：mHC还优化了MoE架构中不同专家之间的通信路径，仅保留高关联度的连接，减少了通信开销。 3.2.3效果与优势训练稳定性：mHC使得训练万亿参数规模的模型成为可能，解决了大规模MoE模型训练中的数值不稳定性问题。性能提升：在数学推理等任务上，准确率提升了15%。通用推理：在MATH、GSM8K等数学推理数据集上，得益于mHC和Engram的协同，准确率有显著提升。
23620编辑于 2026-04-24
来自专栏快乐阿超
trace.moe
——太宰治《人间失格》 trace.moe：通过截图识别番剧的开源神器 trace.moe 是一个开源的番剧识别服务，通过上传任意一帧截图，即可快速识别出该画面来自哪一部动画、哪一集，甚至精确到具体的时间点一、项目简介 trace.moe 由 @soruly 开发，提供完整的后端识别引擎、Web API 接口以及前端页面，支持本地部署和线上使用。该项目已部署于 https://trace.moe，开放免费使用，也支持自行搭建私有服务。二、核心功能以图搜番：通过上传图片识别动画出处，返回标题、集数、时间戳、相似度等。四、本地部署方式 trace.moe 提供 Docker 支持，可快速本地部署： git clone https://github.com/soruly/trace.moe.git cd trace.moe 八、结语 trace.moe 是“以图识番”领域的代表项目，简单高效、开放易用。无论是动漫站点、二次元工具、Bot 开发者，还是普通动画爱好者，都能从中获益。
6.6K10编辑于 2025-04-05
当所有人都在堆参数的时候，DeepSeek V4悄悄做了三件别人不敢做的事
技术创新解决的核心问题作用阶段mHC流形约束超连接MoE超深网络训练不稳定训练阶段Engram印迹条件记忆长上下文中信息检索效率低架构层面DualPath推理框架KV-CacheIO瓶颈，推理成本高推理阶段下面我逐一展开二、mHC流形约束超连接：让超深MoE网络不再"发疯"2.1问题从何而来先说背景。 MoE的核心思路是把模型分成很多"专家"，每次推理只激活其中一小部分，这样参数总量可以很大，但实际计算量可控。但MoE有个老大难问题：训练不稳定。 2.3效果有多显著DeepSeek在技术报告中给出了具体数据：mHC让MoE模型的训练稳定性提升了约30%，训练效率（单位算力产出的有效token数）也相应提升。传统残差连接在超深MoE网络中容易出现梯度消失和信号不稳定；无约束的超连接虽然增强了信息流动，但信号放大效应过于剧烈；mHC通过流形约束找到了一个平衡点——既保留了超连接的信息增强效果，又把放大效应控制在合理范围内
77730编辑于 2026-04-18
来自专栏大模型系列
万字长文解读 DeepSeek-V4：百万上下文、万亿参数、开源免费，国产大模型迎来JPEG时刻—解密 Engram 记忆模块、MHC 稳定训练与百万Token
MoE + MHC：打造稳定高效的“专家团队”如果说 Engram 解决了“记忆”问题，那么 MoE（混合专家）架构则解决了“计算”问题。 DeepSeek-V4 并非简单地采用传统的 MoE，而是引入了 MHC（流形约束连接）技术，使其更加稳定和高效。MoE（混合专家）基础：传统稠密模型在处理任何输入时，都会激活所有的神经元。 MoE 架构则将模型拆分成多个“专家子网络”。 MHC（流形约束连接）的革新：在超大规模 MoE 模型中，专家之间的协作和信息流动极易失控，导致训练不稳定（即“规模魔咒”）。 MHC 技术就像一位“顶级项目监理”，它通过对专家间连接方式施加数学上的流形约束，确保了信息在专家网络中的流动是平滑、有序且高效的。
1.3K100编辑于 2026-04-24
来自专栏亨利笔记
迈向V4/R2之路：揭秘DeepSeek Engram如何解放大模型算力，激发高级智能
3. mHC架构集成：既分工又协作一些的主流大模型采用了“流形约束超连接”（mHC），就像多个策划师协作完成一个复杂项目。他们定义分配比率 ρ 为分配给 MoE 专家容量的参数比例（ρ=1 代表纯 MoE 模型），通过调整ρ发现：纯MoE并非最优：当所有稀疏预算都给 MoE 时，模型性能不是最好（就像团队只重视创意，没有行政支持结合 DeepSeek 年初发布的 mHC（流形约束超连接）框架，下一代模型的架构轮廓已呼之欲出了：融合 mHC 优化专家间通信效率，引入 Engram 作为独立记忆模块，形成“动态计算+静态检索”的协同模式 mHC 与 Engram 的结合是“动态计算”与“静态记忆”的双重优化，旨在实现“1+1>2”的效果：mHC 提升 MoE 通信效率，Engram 解决计算资源竞争。与年初发布的 mHC 技术一样，Engram 技术也继续在铺垫着 DeepSeek 的下一代模型。业内对 DeepSeek 模型 V4/R2 发布的呼声已经愈来愈高了。
2K21编辑于 2026-01-19
来自专栏亨利笔记
DeepSeek mHC 重构神经网络底层逻辑，V4R2 渐行渐近
mHC 开启神经网络架构新篇章！ 2025年12月31日，当全球都沉浸在跨年的热闹氛围里时，DeepSeek 依旧是“每逢佳节倍出新”的节奏，悄悄放了个大招：mHC（流形约束超连接）架构的技术论文。而mHC，正是破解“极深层网络难稳定和难高效”这个核心难题的关键钥匙。如果说 V3 和 R1 是在现有架构上把“算法”和“数据”玩到了极致，那么 mHC 就是在为未来的超大规模架构换地基。 DeepSeek 团队在 3B、9B、27B 三个不同规模的 MoE 模型上做了充分实验，结果相当惊艳，完全验证了mHC的优势。五、为什么说 mHC 是 V4 和 R2 的关键基石？ DeepSeek选在2025年底发布mHC，绝非偶然。这是在为下一代双旗舰模型V4和R2铺路，mHC就是这两个模型的“核心骨架方案”。对于DeepSeek-V4来说，它需要更大的参数量，远超现有的MoE架构。要驱动这么庞大的模型，必须有更深、更宽的网络结构。
96710编辑于 2026-01-07
来自专栏大模型系列
不是更大，而是更聪明：DeepSeek-V4用“记忆+专家”双引擎颠覆大模型范式—压缩稀疏注意力、DSA、Lightning Indexer
第三章：第二引擎——MoE混合专家计算：打造大模型的“新皮层”如果说Engram是模型的“海马体”，那么MoE（MixtureofExperts）就是其“新皮层”，负责处理所有需要动态计算和推理的复杂任务 3.1MoE基础：条件计算的威力MoE是一种经典的稀疏化技术。其基本思想是：专家池：模型由多个相对独立的子网络（称为“专家”）组成。 3.2mHC：稳定万亿参数的“顶级监理”然而，简单的MoE在面对万亿级参数时，会遇到“规模魔咒”——深层网络的训练极不稳定。 DeepSeek为此引入了其自研的mHC（Manifold-ConstrainedHyper-Connections）技术。3.2.1技术原理mHC的核心是对网络层间的连接矩阵施加严格的数学约束。 3.2.2实际效果训练稳定性：mHC使得训练1.6T参数的V4-Pro成为可能。性能增益：在数学推理（MATH）等任务上，准确率提升了15%。
24430编辑于 2026-04-24
来自专栏机器学习与统计学
DeepSeek V4 传下周发布，核心架构组件曝光，这次可能是真的
"快速模式"和"专家模式"，产品层面的预热动作很明显 DeepSeek 正在乌兰察布规划建设大型数据中心，为后续算力需求做准备 DeepGEMM 在 4 月 16 日推送了重大更新——新增 Mega MoE 融合 MoE 大核（Fused MoE Mega Kernel） MoE（Mixture-of-Experts）架构本身 DeepSeek 从 V2 就开始用了，V3 进一步打磨。但 MoE 有个工程痛点：路由判断和专家矩阵乘法是两步操作，中间有大量 kernel 启动和显存搬运的开销 Fused MoE Mega Kernel 把这两步融合进同一个 GPU kernel，直接砍掉了中间的开销但早期版本的 Hyper-Connections 有一个致命问题：信号放大会失控，在超大模型中放大倍数可以达到 3000 倍以上，导致训练直接崩溃 DeepSeek 的解决方案叫 mHC（Manifold-Constrained Mega Kernel + mHC 几个值得关注的点 1.
9810编辑于 2026-04-24
来自专栏计算机技术-参与活动
MOE怎样划分不同专家
\MOE怎样划分不同专家@[TOC](目录)MOE划分不同专家以及LLM模型拆分的方法及举例如下：### MOE划分不同专家的方法ffn前馈神经网络- **独立神经元划分**： - **随机划分* 例如在LLaMA-MoE模型的构建中，采用**非重叠随机拆分法**，将FFN层中的中间神经元均匀分割成**多个子集，每个子集对应一个专家网络**。 **MOE专家划分的简单实现思路（以随机划分神经元为例）** - 假设我们有一个简单的前馈神经网络（FFN）层，其权重矩阵形状为`(input_size, output_size)`。 experts_weights, experts_bias = **split_experts_randomly**(ffn_layer, num_experts) ``` - 这只是一个简单的示意，在实际的MOE
55921编辑于 2025-01-06
抛弃CUDA生态，万亿参数全栈国产化——拆解DeepSeek V4的「飞行换引擎」
这篇文章会拆解DeepSeekV4的核心架构创新——MegaMoE、mHC流形约束超连接、Engram条件记忆——以及从CUDA到CANN的迁移工程到底难在哪。对比一下Dense模型（所有参数都激活）和MoE模型的差异：指标Dense万亿参数模型DeepSeekV4(MoE)总参数量~1万亿~1万亿推理激活参数1万亿~370亿计算量极大降低97%推理成本极高降低 2.2mHC：解决MoE训练不稳定的关键一招MoE架构有个老毛病：参数越多，训练越不稳定。梯度爆炸、消失、层间信号衰减，这些问题在万亿参数规模下被急剧放大。 DeepSeek团队为此提出了mHC（Manifold-ConstrainedHyperConnection，流形约束超连接）。mHC的核心思路是在模型的层间连接上做文章。根据DeepSeek的技术报告，mHC仅增加6.7%的额外开销，就提升了30%的训练效率，让万亿参数模型的稳定训练成为可能。
837130编辑于 2026-04-24
mHC 深度解读：当流形几何遇上残差网络
本文将从论文技术细节出发，理解 mHC 背后的设计哲学。 mHC 将信号增益控制在了理论值 1 附近，实现了三个数量级的改进！ baseline 这表明 mHC 不是小规模的 trick，而是可以真正 scale 的架构改进。复现的现实考量目前论文未开源代码，这意味着想要复现 mHC 的团队需要从零实现上述所有优化。因此，6.7% 这个数字更多是 DeepSeek 工程能力的体现，而非 mHC 方法本身的固有开销。
41310编辑于 2026-01-20
来自专栏DeepHub IMBA
DeepSeek 开年王炸：mHC 架构用流形约束重构 ResNet 残差连接
这篇 mHC 就是来填这个坑的，咱们顺着逻辑拆解一下。这就引出了 mHC 的核心：流形约束（Manifold Constraint）。别被这数学名词吓着：之前的 HC 是想让连接权重随便长，结果就长歪了；现在的 mHC 就是给这些权重矩阵加了个限制。这就从理论上解释了为什么 mHC 可以堆叠到成百上千层而不崩塌，这部分其实是对现有架构理论的一个重要补充。但 mHC 提示了一个新的方向：层与层之间的拓扑结构（Topology）本身，还有巨大的挖掘空间。如果这种基于流形约束的连接方式被验证能 scaling up 到万亿参数级别（论文说 671B 的 MoE 模型是ok的），那咱们以后设计大模型，可能就不再是简单的搭积木而是要开始研究积木之间的粘合剂怎么调配了
33610编辑于 2026-01-12
来自专栏信数据得永生
Mixtral MOE 部分源码解析
current_hidden_states = self.w2(current_hidden_states) return current_hidden_states # MOE MixtralSparseMoeBlock(nn.Module): """ This implementation is strictly equivalent to standard MoE It's faster since it formulates MoE operations in terms of block-sparse operations to accomodate imbalanced assignments of tokens to experts, whereas standard MoE either (1) drop tokens at the
45210编辑于 2024-04-02
来自专栏大模型系列
0.2元/百万Token 的万亿AI：DeepSeek-V4 开源，开启超长上下文普惠时代——DeepSeek-V4-Pro|DeepSeek-V4-Flash
2.2.2技术原理：数学上的优雅约束mHC（Manifold-ConstrainedHyper-Connections）技术，源自DeepSeek的另一篇核心论文《mHC:流形约束超连接》。优化专家通信：在MoE架构中，mHC还优化了不同专家子网络之间的通信路径，仅保留高关联度的连接，减少了不必要的通信开销。 2.2.3实际效果训练稳定性：mHC使得训练万亿参数规模的模型成为可能，解决了大规模MoE模型训练中的数值不稳定性问题。性能提升：在数学推理等任务上，准确率提升了15%。推理加速：结合MoE和Engram，V4的端到端推理速度相比同级别稠密模型提升了2.3倍以上。架构：约1.6T总参数，49B激活参数的MoE架构。定价：输入1元/百万Token，输出12元/百万Token。DeepSeek-V4-Flash定位：高性价比版，面向广大开发者、中小企业和日常应用。
37540编辑于 2026-04-24
DeepSeek模型MOE结构代码详解
这篇文章是基于 @ZOMI酱的2个视频写的，这2个视频讲的很好，建议大家都学习一下：《MOE终于迎来可视化解读！傻瓜都能看懂MoE核心原理！》和《使用昇腾NPU手撕MoE单机版代码！ MOE结构概述我们可以从zomi酱视频里面的这张图开始：添加图片注释，不超过 140 字（可选）MOE是mixture of experts 的缩写，简单来说，就是把传统transformer结构中decoder MOE计算代码接下来我们参考zomi酱提供的代码来详细看一下MOE的计算过程是怎样的：import torchimport torch.nn as nnimport torch.nn.functional (batch_size, input_dim).to(device) moe.eval() output, _ = moe(x) print(f"Eval output shape: 然后开始定义MOE类。
38220编辑于 2025-04-21
厉害了！中国科学家最新研究成果，打破中美人工智能硬件差距
他们在2026年元旦在外网发表名称为《mHC: Manifold-Constrained Hyper-Connections》的技术论文，该文章的核心观点是提出一种名为“mHC”（直译为“流形约束超连接与Mixture of Experts（MoE）架构相结合，Engram通过条件记忆的方式，为每个模型输入提供快速的静态知识检索。与传统的MoE架构相比，DeepSeek的条件记忆技术不仅突破了GPU内存瓶颈，还通过解耦计算和存储，降低了训练和推理的成本。 Gemini采用了类似MoE的架构，并且在处理多模态任务时有着不错的表现。但在纯文本推理和大规模上下文推理时，Gemini面临的内存瓶颈问题与DeepSeek不相上下。 #deepseek #MOE架构 #梁文峰 #大模型 #deepseek最新突破一键三连「点赞」「转发」「小心心」欢迎在评论区留下你的想法！
40010编辑于 2026-03-17

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

MHC区域

Deepseek mHC 架构理解

解密DeepSeek-V4 预览版Engram 记忆模块、mHC 稳定训练与百万Token稀疏注意力的三大突破——百万Token上下文的智能压缩引擎

35倍推理加速，成本砍掉97%——DeepSeek V4要重写大模型游戏规则

打破幻觉与成本魔咒：DeepSeek-V4 如何用双轴稀疏架构重塑大模型未来？

trace.moe

当所有人都在堆参数的时候，DeepSeek V4悄悄做了三件别人不敢做的事

万字长文解读 DeepSeek-V4：百万上下文、万亿参数、开源免费，国产大模型迎来JPEG时刻—解密 Engram 记忆模块、MHC 稳定训练与百万Token

迈向V4/R2之路：揭秘DeepSeek Engram如何解放大模型算力，激发高级智能

DeepSeek mHC 重构神经网络底层逻辑，V4R2 渐行渐近

不是更大，而是更聪明：DeepSeek-V4用“记忆+专家”双引擎颠覆大模型范式—压缩稀疏注意力、DSA、Lightning Indexer

DeepSeek V4 传下周发布，核心架构组件曝光，这次可能是真的

MOE怎样划分不同专家

抛弃CUDA生态，万亿参数全栈国产化——拆解DeepSeek V4的「飞行换引擎」

mHC 深度解读：当流形几何遇上残差网络

DeepSeek 开年王炸：mHC 架构用流形约束重构 ResNet 残差连接

Mixtral MOE 部分源码解析

0.2元/百万Token 的万亿AI：DeepSeek-V4 开源，开启超长上下文普惠时代——DeepSeek-V4-Pro|DeepSeek-V4-Flash

DeepSeek模型MOE结构代码详解

厉害了！中国科学家最新研究成果，打破中美人工智能硬件差距

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐